第09期 - Google v OpenAI

谷歌发布 Gemini Pro 1.5 的当天 OpenAI 发布了文生视频大模型 Sora

1、谷歌推出了 Gemini 1.5 Pro

2 月 16 日,谷歌推出了 Gemini 1.5 Pro。Gemini 1.5 Pro 具备 10M 的上下文,这样就具备了超强的学习和理解能力。实际的 context 是多模态的,视频 2.8M、音频 2M、文本 10M。性能比之前的版本更好,接近于 Gemini Ultra 水平。

在这里申请加入 waitlist: https://aistudio.google.com/app/waitlist/97445851

虽然风头被当天发布的 Sora 抢走,但是 Gemini Pro 1.5 的实力还是蛮强的,感兴趣可以看一下这个中文字幕的演示视频

2、ChatGemini

项目地址:https://github.com/bclswl0827/ChatGemini

✨ ChatGemini 是一个基于 Google Gemini 的网页客户端,对标 ChatGPT 3.5,使用逻辑同 ChatGPT 3.5 一致,同时支持在聊天中上传图片,自动调用 Gemini-Pro-Vision 模型进行识图。

主界面

附件识图

3、OpenAI 发布的人工智能文生视频大模型 Sora

官网:https://openai.com/sora

Google 发布 Gemini Pro1.5 的当天,OpenAI 发布了人工智能文生视频大模型 Sora。

OpenAI 并未单纯将其视为视频模型,而是作为“世界模拟器” 。Sora 继承了 DALL-E 3 的画质和遵循指令能力,直接使用 Prompt 生成视频

该模型可以深度模拟真实物理世界,能生成具有多个角色、包含特定运动的复杂场景,能理解用户在提示中提出的要求,还了解这些物体在物理世界中的存在方式。Sora 对于需要制作视频的艺术家、电影制片人或学生带来无限可能,其是 OpenAI“教 AI 理解和模拟运动中的物理世界”计划的其中一步,也标志着人工智能在理解真实世界场景并与之互动的能力方面实现飞跃。

下面是官方演示视频合集,时长半小时

Sora 发布之后,国内一些无下限的自媒体发布了很多离谱文章,其中一篇炸出了谢赛宁大佬发朋友圈辟谣。

谢老师同时对 Sora 为何未能出现于中国发表了一些观点,一针见血。

最后附上 OpenAI Sora 团队成员的 X 账号清单,可以去 X 上关注一波:

研发负责人:@billpeeb @_tim_brooks

系统负责人:@cmikeh2

贡献者:Clarence Wing Yin Ng

David Schnurr @_dschnurr

Eric Luhman

Joe Taylor @JMT3

Li Jing @jingli9111

Natalie Summers

Ricky Wang @ryw999

ryan o’rourke

Troy Luhman @LuhmanTroy

Will DePue @willdepue

Yufei Guo

4、Sora 参考论文

OpenaAI 还发布了 Sora 背后的技术报告:论文:https://openai.com/research/video-generation-models-as-world-simulators

image-20240219160851301

有网友总结了这篇技术报告后面的参考论文,总共 32 篇。 https://huggingface.co/collections/pxiaoer/sora-65d0e2db17e2b305e0fc572e